Latent Action调研

Object-Centric Latent Action Learning (2025.6)

image.png

动机:视觉干扰物(如动态背景)在潜在动作学习中存在负面影响 方法:预训练视频模型将视频分解为可解释对象槽,通过线性回归选择前景对象槽学习latent

Physical Autoregressive Model for Robotic Manipulation without Action Pretraining (2025.9)

image.png 动机:VLA缺乏物理知识 方法:联合图像特征 + 动作特征作为latent(称为物理token),通过自回归预测未来的物理token

Spatial Forcing (2025.10)

ReconVLA (2025.8)

image.png 动机:VLA缺乏空间理解 方法:通过目标检测器提取物体feature作为latent的中间监督

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge (2025.8)

image.png 动机:VLA缺乏对世界的全面理解 方法:将运动、深度、语义信息作为latent的中间监督

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models (2025.10)

image.png 动机:VLA缺乏3D理解 方法:将latent token重排列为voxel,预测多视角目标点位置,作为预测动作之前的额外目标

ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context (2025.10)

image.png

动机:VLA缺乏多帧历史观察序列理解,且计算成本高 方法:通过预训练VLM backbone提取时空特征,并采用平均池化进行标记融合,最终通过自回归或扩散模型生成动作

总结

  1. latent架构改进:通过slot等机制,提取去噪的前景信息
  2. 多模态融合​:整合视觉、动作、3D信息,构建更丰富的latent空间
  3. 时序理解改进:改进历史信息、未来信息的学习机制
作者

Koorye

发布于

2025-11-07

更新于

2026-03-17

许可协议